Search CORE

3 research outputs found

Tasks Fairness Scheduler for GPU

Author: Gonzalez-Linares Jose Maria
Guil-Mata Nicolas
López Albelda Bernabé
Publication venue
Publication date: 24/09/2019
Field of study

Nowadays GPU clusters are available in almost every data processing center. Their GPUs are typically shared by different applications that might have different processing needs and/or different levels of priority. As current GPUs do not support hardware-based preemption mechanisms, it is not possible to ensure the required Quality of Service (QoS) when application kernels are offloaded to devices. In this work, we present an efficient software preemption mechanism with low overhead that evicts and relaunches GPU kernels to provide support to different preemptive scheduling policies. We also propose a new fairness-based scheduler named Fair and Responsive Scheduler, (FRS), that takes into account the current value of the kernels slowdown to both select the new kernel to be launched and establish the time interval it is going to run (quantum).Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech

Repositorio Institucional Universidad de Málaga

A Hybrid Piece-Wise Slowdown Model for Concurrent Kernel Execution on GPU

Author: Castro Francisco M.
Gonzalez-Linares Jose Maria
Guil-Mata Nicolas
López Albelda Bernabé
Publication venue: José Cano, Phil Trinder
Publication date: 01/08/2022
Field of study

Current execution of kernels on GPUs allows improving the use of hardware resources and reducing the execution time of co-executed kernels. In addition, efficient kernel-oriented scheduling policies pursuing criteria based on fairness or Quality of Service can be implemented. However, achieved co-executing performance strongly depends on how GPU resources are partitioned between kernels. Thus, precise slowdown models that predict accurate co-execution performance must be used to fulfill scheduling policy requirements. Most recent slowdown models work with Spatial Multitask (SMT) partitioning, where Stream Multiprocessors (SMs) are distributed among tasks. In this work, we show that Simultaneous Multikernel (SMK) partitioning, where kernels share the SMs, obtains better performance. However, kernel interference in SMK occurs not only in global memory, as in the SMT case, but also within the SM, leading to high prediction errors. Here, we propose a modification of a previous state-of-the-art slowdown model to reduce median prediction error from 27.92% to 9.50%. Moreover, this new slowdown model is used to implement a scheduling policy that improves fairness by 1.41x on average compared to even partitioning, whereas previous models reach only 1.21x on average.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech P18-FR-3130 UMA20-FEDERJA-059 PID2019-105396RB-I0

Repositorio Institucional Universidad de Málaga

Planificación concurrente de comandos en GPU

Author: López Albelda Bernabé
Publication venue: UMA Editorial
Publication date: 01/01/2023
Field of study

Nuestro modelo software, denominado FlexSched, implementa políticas de planificación destinadas a maximizar el rendimiento en la ejecución de los kernels o a satisfacer requisitos de calidad de servicio (QoS) de la misma, como por ejemplo el tiempo máximo de respuesta de un kernel. Una ventaja importante de FlexSched es que requiere solo modificaciones mínimas en el código del kernel y utiliza un profiler on-line productivo para lograr una distribución eficiente de los recursos de la GPU. También se presenta un modelo hardware, HPSM (Hybrid Piecewise Slowdown Model), de planificación y ejecución concurrente de kernels en una GPU que permite mejorar el tiempo de ejecución de un conjunto de kernels y aplicar políticas orientadas al fairness. Este modelo puede predecir el progreso normalizado de los kernels y redistribuir la asignación de recursos para alcanzar los objetivos marcados.En esta tesis se analiza el problema de planificar un conjunto de tareas sobre una GPU desde diferentes puntos de vista. Por una parte, se estudia el solapamiento de comandos de transferencia de datos con comandos de ejecución de kernels con el objetivo de minimizar el tiempo de ejecución (makespan). Por otra parte se comparan distintos métodos que permiten la ejecución solapada de varios kernels sobre la misma GPU buscando alcanzar diferentes objetivos como maximizar el rendimiento del sistema (system throughput), alcanzar la equidad (fairness) o garantizar una calidad de servicio (QoS). En el estudio sobre el solapamiento de comandos se busca identificar el orden de ejecución que resulte en un tiempo de procesamiento mínimo. Se aplican los conceptos de la teoría de planificación a este problema y se modela la ejecución concurrente de tareas en una GPU como un problema de tipo Flow Shop. Además, se desarrolla una nueva estrategia llamada NEH-GPU que combina una heurística previamente existente con un modelo de ejecución de tareas en GPU y se efectúan experimentos para validar su eficacia y robustez. En la tesis también se aborda el problema de la ejecución concurrente de kernels (CKE) analizándolo desde el punto de vista software y hardware. En este problema se busca planificar un conjunto de kernels para su coejecución y de esta forma mejorar el uso de los recursos hardware

Repositorio Institucional Universidad de Málaga